iT邦幫忙

2025 iThome 鐵人賽

DAY 1
0

大型語言模型(Large Language Model, LLM)介紹與歷史

什麼是 LLM

大型語言模型(Large Language Model, LLM)是一種基於深度學習與自然語言處理的人工智慧模型,透過大規模語料庫的訓練,具備理解與生成自然語言的能力。
其核心技術多採用 Transformer 架構,透過 自注意力機制(Self-Attention) 有效捕捉上下文關係,使模型能夠在不同語境下產生連貫且語意合理的回應。

歷史背景

  • 早期統計方法
    最初的語言模型以 N-gram 等統計方法為主,但無法捕捉長距離的語意關聯。

  • RNN / LSTM 時期
    深度學習興起後,循環神經網路(RNN)與長短期記憶網路(LSTM)改善了序列建模能力,但在長文本處理上仍有瓶頸。

  • 2017 - Transformer 的提出
    Google 發表論文 Attention Is All You Need,提出 Transformer 架構,能高效處理大規模語料,為後續 LLM 奠定基礎。

  • 2018 - GPT 問世
    OpenAI 發布 GPT(Generative Pre-trained Transformer),展示了預訓練與微調的巨大潛力。

  • 2019 - BERT 的突破
    Google 提出 BERT(Bidirectional Encoder Representations from Transformers),能同時考慮上下文雙向語境,推動自然語言理解任務的進步。

  • 2020 以後 - 大型語言模型時代

    • GPT-2 / GPT-3:參數數量激增,展現出強大的文字生成能力。
    • ChatGPT (2022):大幅提升人機互動體驗,掀起全球熱潮。
    • LLaMA、PaLM 等開源與專用模型 陸續出現,推動研究與應用多元化。

特點與應用

  • 多任務能力:翻譯、問答、文本摘要、情感分析、程式碼生成。
  • 少樣本學習:具備 Few-shotZero-shot 學習能力,能快速適應新任務。
  • 跨模態發展:逐步結合影像、語音等資料,拓展應用場景。

挑戰

  • 高昂的訓練與運算成本。
  • 可能生成錯誤或偏頗的資訊。
  • 缺乏可解釋性,專業領域需額外強化知識。

總結

LLM 是人工智慧領域的重要突破,不僅推動了人機互動的革新,也為 教育、醫療、法律、產業應用 帶來廣泛可能性,並將持續影響未來資訊處理與知識應用的方式。


系列文
LLM探索長文本壓縮與摘要生成:基於檢索增強的大型語言模型方法1
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言